 1.优化小结
   深入理解 Hadoop 的核心能力，对Hive优化很有帮助。Hadoop/Hive 处理数据过
程，有几个显著特征：
   1).不怕数据多，就怕数据倾斜
   2).对 job 数比较多的作业运行效率相对比较低，比如即使有几百行的表，多次关联
多次汇总，产生十几个jobs，执行也需要较长的时间。MapReduce 作业初始化
的时间是比较长的
   3).对sum、count等聚合操作而言，不存在数据倾斜问题
   4).count(distinct) 效率较低，数据量大容易出问题
   
   从大的方面来说，优化可以从几个方面着手：
   1).好的模型设计，事半功倍
   2).解决数据倾斜问题。仅仅依靠参数解决数据倾斜，是通用的优化手段，收获有
限。开发人员应该熟悉业务，了解数据规律，通过业务逻辑解决数据倾斜往往更可靠
   3).减少 job 数
   4).设置合理的map、reduce task数
   5).对小文件进行合并，是行之有效的提高Hive效率的方法
   6).优化把握整体，单一作业的优化不如整体最优
